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摘 要 : [目的 /意义 ] 为 了 丰富 社交 互动 行为 和 知识 付费 行为 的 理论 研究 ,有 效 识 别 潜在 知识 付费 用 户 ,从 而 提高 在 线 知 
识 社区 的 变现 能 力 ,在 总 结 前 人 研究 结论 的 基础 上 ,研究 不 同类 型 以 及 不 同 程度 的 交互 行为 对 于 预测 知识 付费 用 
户 的 贡献 度 及 其 变化 趋势 。[ 方法 过程] 以 从 知 乎 社区 (www-. zhihu. com) fei 400 万 用 户 社会 交互 行为 数据 为 
依托 ,根据 交互 主体 和 交互 方向 的 不 同 对 该 社区 的 用 户 社会 交互 行为 进行 分 类 ,然后 ,利用 随机 森林 算法 研究 不 
同类 型 和 不 同 程度 的 交互 行为 对 知识 付费 用 户 预测 的 贡献 程度 ,并 对 结果 进行 分 析 比 较 。 [ 结果 /结论 ] 结果 发 
现 ,用 户 和 其 他 用 户 的 交互 影响 大 于 用 户 和 平台 交互 的 影响 ,特别 是 ,用 户 对 其 他 用 户 的 主动 交互 行为 的 影响 大 

qu 于 用 户 接收 到 的 来 自 其 他 用 户 的 交互 行为 的 影响 。 此 外 ,在 一 定 的 阀 值 内 ,社交 互动 的 程度 越 大 ,其 对 知识 付费 

> 行为 预测 的 贡献 越 大 。 不 同 的 交互 类 型 具有 不 同 的 阅 值 ,但 是 超过 这 个 赋值 以 后 ,关系 则 不 再 是 简单 的 单调 增加 

uL 关系 ,可 能 趋 于 平缓 其 至 显著 下 降 。 

CHE: 社会 交互 行为 ”知识 付费 用 户 识别 ”随机 森林 贡献 度 

e G250 

er 


: 10.13266/j. issn. 0252 —3116.2020. 08. 011 


享 都 是 基于 “共享 "模式 ,这 种 免费 价值 观 影响 了 用 户 
为 知识 付费 的 意愿 。 与 此 同时 ,知识 付费 模式 也 存在 
一 些 问题 ,如 知识 质量 不 高 .缺乏 版 权 保护 等 所 ,用户 
费 挛 品 由 于 能 降低 用 户 的 信息 第 选 成 本 ,提供 实时 的 “| 对 于 知识 付费 产品 的 使 用 率 还 停留 在 较 低 的 水 平 5 。 
容 而 获得 广泛 关注 。 知 识 付费 是 指 公众 利用 互 | 因此 ,探究 潜在 知识 付费 用 户 的 行为 表现 特征 对 于 识 
x 网 平 台 与 他 人 分 享 自己 的 认 知 黎 余 ( 指 人 的 智慧 . 知 | 别 潜在 的 付费 用 户 具有 重要 的 作用 。 
各 力 ,经 验 等 ) ,从 而 获得 收入 的 经 济 现象 "。 当 现 有 的 知识 付费 行为 研究 主要 集中 在 知识 付费 行 
;未 量 知识 付费 产品 应 运 而 生 ,如 知 乎 的 "Live”` 逻 | 为 的 影响 因素 方面 -9 ,有 关 潜在 付费 用 户 的 预测 研 
辑 思维 的 “得 到 “分 答 " 等 ,这 些 实时 的 语音 问答 互动 | 究 仍 比较 缺乏 , 仅 有 的 预测 研究 也 只 是 把 直播 相关 的 
产品 为 用 户 提供 了 获得 特定 主题 知识 以 及 进行 即时 互 | 因素 ,如 直播 价格 ,知识 共享 者 声誉 等 作为 知识 付费 行 
动 的 平台 。 以 知 乎 为 例 ,2016 年 5 月 推出 的 “ 知 乎 | 为 的 预测 因素 ,并 没有 着 眼 于 具体 的 交互 行为 类 型 以 
Live" 直 播 服务 ,鼓励 人 们 通过 音频 或 视频 分 享 他 们 对 “| 及 交互 程度 对 于 预测 潜在 知识 付费 用 户 的 贡献 程度 ， 
特定 话题 的 见解 ,时 长 从 1 小 时 到 2 小 时 不 等 ”。 用 | 而 用 户 之 间 的 交互 行为 对 于 在 线 社交 网 站 是 非常 重要 
户 需要 支付 一 定 的 费用 才能 获得 进入 直播 的 入 口 , 获 8077. 


得 的 服务 包括 获取 直播 的 知识 和 直播 者 的 互动 交流 笔者 则 在 探究 用 户 在 在 线 知识 社区 中 的 不 同类 型 
等 。 以 及 不 同 程度 的 交互 行为 对 知识 付费 行为 预测 的 贡献 


尽管 知识 付费 模式 拥有 巨大 的 潜力 ,但 知识 付费 | 度 ,从 而 为 识别 潜在 付费 用 户 提供 有 力 的 依据 。 笔 者 
产品 的 使 用 率 却 远 远 低 于 预期 ” 。 以 往 的 在 线 知识 分 | 试图 解决 以 下 两 个 问题 :哪些 类 型 的 用 户 交 互 行为 


* 本 文系 国家 社会 科学 基金 一 般 项 目 “ 基 于 用 户 交互 的 网 络 社区 知识 聚合 组 织 和 服务 研究 ”( 项目 编号 :16BTQ072) 和 国家 自然 科学 基金 项 目 
“信息 生态 链 视角 下 在 线 知 识 社区 用 户 贡献 行为 评价 及 预测 研究 ”( 项 目 编号 :71974149 ) 研究 成 果 之 一 。 
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对 预测 知识 付费 用 户 是 最 有 效 的 ;@ 用 户 交互 程度 对 
预测 知识 付费 用 户 贡献 度 的 影响 。 研 究 结果 有 助 于 丰 
富 用 户 交 互 行为 的 理论 研究 ,为 用 户 交互 行为 与 用 户 
知识 付费 行为 之 间 的 关系 提供 有 力 的 依据 。 


2 研究 综述 


2.1 社交 网 络 用 户 交互 行为 

人 们 利用 社交 媒体 来 分 享 他 们 对 不 同 主题 的 观 
点 .感受 和 想法 ,并 在 Facebook 和 Twitter 等 社交 媒体 
平台 上 宣传 他 们 的 活动 。 因 此 ,社交 媒体 平台 提供 了 
大 量 与 人 类 行为 相关 的 数据 ,包括 社交 互动 ”。 在 线 
社交 互动 ,又 称 网 络 互动 ,是 指 用 户 通 过 信息 交换 在 网 
络 平台 上 进行 的 在 线 互 动 行为 ”。 网 络 社交 已 经 成 为 
个 BRS 生 活 的 重要 组 成 部 分 ,在 互联 网 时 代 , 它 在 支持 媒 
led 与 社会 之 间 的 交流 方面 发 挥 荐 关键 作用 "" 。 社 
交 网 站 提供 各 种 各 样 的 社交 互动 功能 ,如 发 布 文章 E 
i& EAE OC, SUPR De dE Ap 8077, DUE 
MTSN 3 NES EU AR E 
用 种 社交 互动 行为 。 用 户 可 以 操纵 “关注 "他 人 的 状 
堆 33 收 藏 "喜欢 的 内 容 、 专 栏 ,对 他 人 的 内 容 进行 评 
论点 先 或 分 享 。 朋 友之 间 的 互动 .在 线 活动 的 参与 、 
瑞 司 推荐 和 评论 都 是 在 网 站 社区 成 员 之 间 自 由 、 自 愿 
MEL .发 送 和 阅读 。 用 户 所 选择 的 交互 类 型 .在 线 活 
动 世 参与 以 及 产品 推荐 的 购买 都 是 基于 自己 的 选择 和 
fig 
忆 这 些 社交 互动 的 交互 主体 和 交互 方向 并 不 总 是 一 
致 珂 。 基 于 交互 主体 对 社会 交互 的 定义 为 ;参与 主体 
之 他 通过 一 组 信息 通道 (接口 ) 进行 的 信息 交换 ”1 ， 


为 了 探讨 不 同类 型 的 交互 行为 对 付费 行为 的 影响 作 
日 ,笔者 根据 主体 的 不 同 对 交互 的 类 型 进行 了 细 分 , 包 
括 用 户 与 其 他 用 户 之 间 的 交互 以 及 用 户 与 平台 之 间 的 
交互 ,并 绘制 了 交互 类 型 的 关系 图 ( 见 图 1)。 当 交互 
主体 是 用 户 与 其 他 用 户 时 ,用 户 A 会 发 送信 息 或 者 某 
个 状态 给 用 户 B, 同 时 用 户 A 也 会 收 到 来 自用 户 B 的 
信息 或 状态 。 当 交互 主体 是 用 户 与 平台 时 ,用 户 A 会 
发 送信 息 或 状态 给 平台 ,而 同时 也 会 收 到 来 自 平台 的 


反馈 。 


y 


之 送 给 其 他 


户 的 信息 或 状态 


收 到 来 自 其 人 


户 的 信息 或 状态 


EF 台 的 信息 或 状态 


图 1 在 线 社区 用 户 的 社交 互动 类 型 的 关系 


2.2 ”用户 知识 付费 行为 的 影响 因素 

目前 大 多 数 研究 主要 关注 用 户 知识 付费 行为 的 
影响 因素 ,包括 用 户 自我 驱动 的 因素 和 在 线 社 区 了 驱 
动 的 影响 因素 。 用 户 自身 的 影响 因素 包括 信息 需求 
的 重要 性 、 信 息 需 求 的 紧迫 性 、 对 付费 知识 的 信任 、 
对 知识 提供 者 的 认同 、 对 平台 的 熟悉 和 信任 。 社 区 
驱动 的 影响 因素 包括 :知识 质量 、 价 格 、 社 区 的 访客 
数量 .社区 使 用 便利 性 。 对 知识 付费 行为 的 影响 因 
素 如 表 1 所 示 : 


表 1 对 知识 付费 行为 的 影响 因素 研究 


作者 数据 


影响 因素 研究 发 现 


(X. Liu & J. (EH Python fE fF A "AUT E 
8 个 


价格 .知识 共享 者 的 在 线 社会 资本 ( 粉丝 数 ) 、 离 


Feng， 2018) (14] E FAI 84 个 用 户 的 数据 


(S. Cai, Q. F. 使 用 Python fE E fE 
Luo, X. Fu, e 播 " 平 台 抓 取 222 个 
al, 2018) (15) 


(S. Cai, Q. Luo, 使 用 Python JE E f FJ “AF EE 
者 I 


ESA 
4 
p 


X. Fu , et al, 平台 抓 取 634 个 直播 的 数据 被 点 赞 数 
2018) (167 
〈 张 帅 , EX, 通过 访谈 和 问卷 调查 获得 了 18 名 


李 晶 , 2017) [17] ”用户 的 直播 付费 意愿 及 相关 信息 


( 李 钢 , 卢 艳 强 ， 通过 访谈 和 问卷 调查 获得 了 44 名 
腾 树 元 ,2018)Ll8] ”用 户 的 直播 付费 意愿 及 相关 信息 


线 社会 资本 (用 户 等 级 ) 


喜欢 直播 的 用 户 累 计数 量 、 直 播 的 平均 评论 分 
对 的 数据 数 、 价 格 、 知 识 共享 者 的 声誉 性别 .对 平台 的 内 ”前 的 销售 额 产生 积极 的 影响 。 价 格 对 知识 共 
容 贡 献 程度 、 以 积极 


复 听众 的 消息 数量 


社交 资本 对 参与 者 具有 显著 的 影响 ,对 知识 消费 
者 支付 行为 具有 正 向 影响 ,价格 对 支付 行为 没有 


影响 。 


喜欢 直播 和 购买 直播 的 人 的 数量 ,交互 都 会 对 


K 


A 


产品 的 销售 没有 影响 。 


直播 的 价格 、 知 识 提供 者 的 声誉 .该 知识 产品 的 ”知识 提供 者 的 声誉 和 该 知识 产品 的 被 点 赞 数 对 


个 体 需求 、 个 体 认 知 、 信 息 质量 .主观 规范 、 便 利 
条 件 .替代 品 经济 因素 


感知 质量 ,体验 、 信 任 ,感知 费 月 


销售 额 有 积极 的 影响 。 


个 体 需求 是 用 户 在 线 知 识 付费 行为 最 重要 的 影 
因素 ,经济 因素 对 知识 付费 行为 的 影响 相对 不 
EX. 

费 态 度 .主观 规范 ,直觉 行 为 正 向 影响 用 户 付 


F 


= 
E 


2 W 


户 资 源 


un 


费 行为 ,用 户 感知 内 容 和 服务 质量 正 向 影响 用 
户 的 付费 态度 ,感知 费用 与 付费 态度 和 付费 行为 
负 相关 。 
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大 多 数 研究 对 付费 行为 影响 因素 的 研究 基于 直播 
相关 的 特征 ,如 价格 、 内 容 质 量 以 及 知识 共享 者 的 特 
征 ,而 忽略 了 用 户 在 平台 上 的 交互 行为 对 其 付费 意愿 
的 影响 。 此 外 ,这 些 研究 所 依赖 的 数据 样本 量 是 有 限 
的 。 基 于 此 ,笔者 基于 一 个 更 大 量 级 的 .更 有 说 服 力 的 
数据 集 来 研究 哪些 社会 交互 行为 是 潜在 知识 付费 用 户 
更 有 可 能 在 知 乎 直播 平台 购买 直播 的 有 力 信号 。 

2.3 ”基于 用 户 交 互 数 据 的 知识 付费 行为 预测 

关于 预测 知识 付费 用 户 的 研究 表明 ,用 户 在 社交 
媒体 上 的 交互 行为 和 交互 数据 是 识别 潜在 知识 付费 用 
户 的 重要 依据 。 

一 些 研究 对 两 者 关系 的 机 制 进行 了 探讨 。 研 究 发 
现 , 网 络 社会 互动 有 利于 人 际 关系 的 发 展 ,如 通过 建立 
信任 、 建 立 友谊 以 及 促进 人 际 互动 "'” 。 用 户 与 网 络 社 
区 师 亲 密 感 越 强 ,意味 着 社区 对 购买 意愿 的 影响 越 大 。 


thon 编程 疏 取 知 乎 社区 用 户 的 所 有 行为 数据 。 利 用 知 
乎 用 户 的 社交 关系 属性 递归 候 取 了 知 乎 几乎 所 有 存在 
于 关系 网 中 的 用 户 信息 。 即 从 一 个 意见 领袖 开始 , 扑 
取 他 的 关注 列表 和 粉丝 列表 。 再 从 关注 列表 和 粉丝 列 
表 递归 地 息 取 用 户 的 所 有 行为 信息 。 而 散落 于 关系 网 
之 外 的 用 户 , 由 于 他 们 与 知 乎 社交 平台 中 的 任 一 关系 
网 络 均 无 交集 ,参与 度 过 低 ,信息 量 过 小 ,因此 不 纳入 
研究 范围 之 内 。 

截至 2017 年 7 H 10 日 ,共和 把 取 了 4 376 500 个 用 
户 在 知 乎 问答 平台 上 的 行为 数据 。 由 于 数据 爬 取 的 时 
间 成 本 较 高 ,因此 笔者 假设 在 数据 爬 取 过 程 中 的 数据 
量变 化 较 小 。 经 过 编码 .排序 .替换 缺失 值 、 删 除 重 复 
值 . 预 测 值 的 类 别 转换 等 数据 清洗 工作 ,得 到 了 
4 290 000 条 干净 数据 。 易 除 掉 用 户 id 用户 头像 链接 
等 无 用 字段 。 此 外 ,由 于 所 有 用 户 在 商业 问题 上 的 变 


《项 基于 网 络 服务 的 持续 意愿 研究 表明 ,亲密 度 和 熟 
释 庄 影响 用 户 的 持续 意 态 " 。 在 社交 网 络 背景 下 , 认 
知 条 情感 参与 , 即 社交 互动 ,已 被 证 明 能 够 增加 用 户 对 
朋友 推荐 的 交易 的 购买 意愿 2 。 购 买 意愿 是 由 用 户 
各 各 交 网 络 社区 之 间 的 社交 互动 直接 驱动 的 。 用 户 在 
网 络 社区 中 与 他 人 的 社交 互动 越 多 ,与 他 人 的 亲 
密 感 和 熟悉 感 就 越 强 。 因 此 ,这 个 用 户 的 购买 意愿 更 
共计 能 受到 社区 的 影响 中 。 

. 王 还 有 一 些 学 者 为 基于 用 户 交 互 数 据 的 知识 付费 行 
为 预测 提供 了 有 力 的 依据 。 HS L. Wu 和 J W. 
Wang 发 现 ,社交 网 站 所 支持 的 社交 互动 允许 用 户 培 
养 = 增 强 和 维持 在 线 关系 ,是 行为 意图 的 重要 预测 因 
ZO Zhang aE a] 通过 对 Facebook 和 eBay 用 户 的 联 
合 大 数据 集 的 研究 表明 , 仅 使 用 社交 媒体 信息 就 可 以 
成 功 预 测 购买 行为 ,其 中 ,社交 网 络 中 用 户 表现 出 的 兴 
趣 (如 Facebook 的 “ 赞 ”) 是 预测 用 户 购买 行为 的 重要 


— 


量 值 都 为 0, 没 有 统计 学 意义 ,因此 笔者 删除 了 商业 问 
题 变 量 , 最 后 ,获得 实际 可 用 行为 字段 17 个 ,包括 16 
类 在 线 社交 互动 数据 以 及 用 户 参 与 的 付费 直播 数 。 
3.0 用户 交互 特征 及 分 类 

此 外 ,根据 交互 主体 的 不 同和 交互 方向 的 一 致 性 
( 见 图 1) ,笔者 对 交互 的 类 别 进行 了 描述 。 交 互 行为 
的 分 类 取决 于 交互 行为 的 发 起 者 和 直接 接收 者 。 当 行 
为 的 发 起 者 是 单一 用 户 ( 研 究 的 本 体 用 户 ) 时 , 则 该 交 
互 类 型 属于 用 户 一 其 他 用 户 或 者 用 户 一 平台 。 知 该 行 
为 的 直接 接收 者 是 另 一 个 单一 用 户 ( 除 该 用 户 之 外 的 
其 他 用 户 ) , 则 该 交互 类 型 属于 用 户 一 其 他 用 户 ; 知 该 
行为 的 直接 接收 者 是 平台 上 所 有 的 用 户 或 者 平台 , 则 
该 交互 类 型 属于 用 户 一 平台 。 同 理 , 奉 该 行为 的 发 起 
者 是 平台 ,接收 者 是 单一 用 户 , 则 该 交互 类 型 属于 用 户 
一 平台 ; 若 该 行为 的 发 起 者 是 除 该 用 户 之 外 的 其 他 用 
户 ,接收 者 是 研究 的 本 体 用 户 时 ,该 交互 类 型 属于 其 他 


因素 。 这 些 研 究 表明 ,利用 用 户 的 社交 互动 行为 去 识 


用 户 一 用 户 ,这 与 平台 的 功能 机 制 密 不 可 分 。 变 量 


别 潜在 的 付费 用 户 具 有 科学 性 和 可 行 性 。 但 是 不 同类 
型 和 不 同 程度 的 社会 交互 对 于 预测 付费 行为 的 贡献 度 
却 没有 更 深 一 步 的 研究 ,因此 ,笔者 拟 通 过 研究 哪些 交 
互 特征 以 及 哪 种 交互 程度 是 甄别 洪 在 知识 付费 用 户 的 
最 有 力 信号 ,以 解决 上 述 问题 。 


3 研究 方法 


称 及 含义 见 表 2 。 

在 17 个 特征 变量 中 ,有 9 个 变量 都 属于 用 户 对 其 
他 用 户 的 主动 交互 行为 ,5 个 变量 属于 用 户 对 平台 的 
主动 交互 行为 , 2 个 变量 是 来 自 其 他 用 户 的 交互 行为 ， 
1 个 变量 属于 来 自 平台 的 交互 行为 。 在 此 基础 上 , 竺 
者 对 目标 变量 参加 的 付费 直播 数 进行 了 分 类 处 理 , 见 


3.1 数据 收集 
以 前 的 研究 是 基于 问卷 调查 收集 的 小 样本 自我 报 


表 3。 
3.3 ”特征 重要 性 (贡献 度 ) 的 计算 
一 般 情况 下 ,数据 集 都 是 高 维度 的 ,具有 较 多 的 特 


告 数据 来 衡量 的 。 笔 者 利用 从 网 站 收集 的 大 量 累 计 互 
动 数据 作为 量化 用 户 社交 互动 行为 的 基础 ,通过 py- 


征 , 而 过 多 的 特征 会 导致 算法 的 性 能 以 及 算法 的 准确 
率 降低 , 因此 有 必要 从 某 一 特定 的 标准 下 选择 最 重要 
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R2 知 乎 的 用 户 社交 互动 类 型 .含义 及 所 属 类 型 


特征 变量 字段 解释 交互 类 型 
voteup_count -赞同 数 由 其 他 用 户 认 可 的 用 户 答案 文章 或 专栏 的 数量 户 一 其 他 用 户 
favorited_count — 被 收藏 数 用 户 的 内 容 被 其 他 用 户 收藏 的 数量 用 户 一 其 他 用 户 
answer count - 回答 数 和 户 在 平台 上 的 回答 数 用 户 一 其 他 用 户 
favorite, count — 收藏 数 户 在 平台 上 收藏 的 回答 数 .话题 数 .文章 数 用 户 一 其 他 用 户 
following count - 关注 的 用 户 数 j 户 追随 的 人 数 用 户 一 其 他 用 户 
following_topic_count - 关注 的 话题 数 户 关注 的 各 个 领域 的 话题 数 用 户 一 其 他 用 户 
following columns, count - 关注 的 专栏 数 和 户 关注 的 个 人 专栏 .话题 专栏 或 独立 品牌 专栏 的 数量 j 户 一 其 他 用 户 
ge Je EL FRE pa gv 4 H Hs EYE , de S dUZBdgs 
"——————ÓH e a Md E "m 
following question, count — 关注 的 问题 数 和 户 关 注 的 问题 的 数量 ;其 他 用 户 
question, count - 提问 数 j 户 在 平台 上 的 提问 数 J> 
articles. count - 文章 数 和 户 在 平台 上 发 布 的 文章 数 I> gS 
pins, count 分享 数 IPESE 专栏、 回答 进行 分 享 的 次 数 opó 
pom “ 知 乎 Live" 是 一 种 付费 直播 产品 ,知识 共享 者 主要 通过 语音 直播 分 享 自己 的 知识 
:d. live, count - 主持 的 付费 UR 、 i id D 2 di pads Fal A MNA 
a A 或 者 观点 给 付费 的 观众 。 举 办 的 直播 数 则 是 用 户 作为 知识 共享 者 主持 直播 的 次 数 ERN 
taked, answers, count - 被 收录 的 回答 数 和 户 在 平台 上 的 优质 回答 被 知 乎 收录 的 次 数 平台 一 用 户 
《De count - 粉丝 数 j 户 吸引 的 追随 者 的 数量 flt 
ked. count -被 感激 数 户 在 平台 上 的 回答 被 其 他 用 户 感谢 的 次 数 KU P ^ 


x 目标 变量 


字段 解释 


atticipated_live_count - 参加 的 付费 直播 数 


用 户 付费 参与 的 直播 数 


Co 表 3 目标 变量 的 分 类 描述 

CO 参加 的 直播 数 类 别 
be =0 非 付费 用 户 (类 别 =0) 
> >0 付费 用 户 (类 别 =1) 


的 特征 子 集 。 笔 者 选择 随机 森林 计算 特征 重要 性 。 随 
机 穆 林 是 一 种 集成 学 习 算 法 ,原理 是 将 多 个 弱 分 类 器 
进 得 重组 ,得 到 高 性 能 的 强 分 类 器 ,该 方法 能 够 获得 特 
(EGRE ™ 
3.3.1 随机 森林 计算 特征 重要 性 的 原理 

随机 森林 用 抽样 放 回 的 方法 (bootstrap ) 从 样本 集中 
选择 n 个 样本 组 成 训练 集 ,用 新 生成 的 样本 集 生成 决策 
树 。 对 于 生成 的 每 一 个 节点 ,随机 地 选择 m 个 不 重复 的 
特征 ,利用 这 m 个 特征 对 新 的 样本 集 进行 划分 ,通过 基尼 
系数 或 者 增益 率 找到 最 佳 的 划分 依据 和 特征 。 假 设 随机 
森林 拥有 卡 个 决策 树 , 那 么 这 个 过 程 会 重复 k 次 。 最 后 ， 
用 这 个 随机 和 森林 对 预测 集 进行 预测 ,通过 投票 获得 预测 结 
果 。 本 研究 通过 基尼 指数 计算 各 个 特征 (社交 互动 行为 的 
累积 量 ) 对 目标 变量 (是 否 参与 付费 直播 ) 的 贡献 。 
3.3.2 随机 森林 计算 特征 重要 性 的 步骤 

笔者 通过 基尼 指数 来 进行 评价 ,将 变量 的 重要 性 
评分 用 VIM (variable importance scores) 来 表示 ,基尼 值 
用 G1 表示 ,假设 有 m 个 特征 X,,X,,…,X, ,基尼 指数 
的 计算 公式 如 下 所 示 : 


GL =1- X) du 公式 (1) 
其 中 上 表示 有 个 类 别 ,Pi 表示 节点 m PJI] k 
所 占 的 比例 。 特 征 X, 在 节点 m 的 重要 性 由 分 支 前 后 
的 基尼 指数 变化 量 来 表示 : 
VIMS™ = GI, - GI, - GI, 公式 (2) 
其 中 ,GI 和 GI, 分 别 表示 分 校 后 两 个 新 节点 的 基 
尼 指 数 。 
如 果 特 征 Xi 在 决策 树 i 中 出 现 的 节点 在 集合 M 
中 ,那么 Xi 在 第 i 棵 树 的 重要 性 为 : 


VIMz" =) men VIME 公式 (3) 
假设 随机 森林 共有 k 棵 树 ,那么 : 
VI ps - Xu Es 公式 (4) 


最 后 对 所 有 VIM 进行 归 一 化 处 理 就 得 到 特征 最 
终 的 重要 性 的 评分 : 


VIM, = 一 一 一 

È VIM, 

4 交互 特征 对 知识 付费 行为 预测 的 贡献 
度 分 析 

在 获取 的 数据 集 里 ,付费 用 户 的 占 比 为 9. 496 


(404 900/4 290 000) 。 笔 者 对 这 批 数据 进行 了 统计 学 
的 描述 ,如 表 4 所 示 : 


公式 (5) 
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表 4 数据 集 的 描述 性 分 析 


最 小 值 最 大 值 均值 标准 差 
特征 名 称 
统计 值 统计 值 统计 值 标准 误差 统计 值 
赞同 数 0 3 461 667 565.51 16. 823 10 704. 853 
被 收藏 数 0 1 087 985 348.53 10.743 6 835.881 
3 0 1 348 183 255.11 9. 646 6 137.68 
被 收录 的 回答 数 0 130 0. 03 0. 001 0. 803 
被 感激 数 0 545 005 118.67 3.235 2 058. 594 
回答 数 0 17 721 14.4 0. 121 76.698 
提问 数 0 3 151 1.71 0. 02 12.982 
文章 数 0 1 534 0.45 0.012 7.64 
主持 的 直播 数 0 26 0.01 0 0.177 
必 藏 数 0 239 6.42 0.013 8.129 
关注 的 用 户 数 0 15 430 98.94 0.317 201. 593 
关注 的 话题 数 0 22 027 40.27 0.14 89.155 
关注 的 专栏 数 0 2 132 11.28 0.044 27.971 
TS 关注 的 收藏 夹 数 0 5 030 7.63 0. 046 29.087 
2 关注 的 问题 数 0 59 975 178.95 0.982 624.854 
LO 分 享 数 0 396 0.22 0. 004 2.401 
付费 参与 的 直播 数 1 1123 4.04 0.016 10. 263 


iB 用 户 交互 类 型 对 知识 付费 行为 预测 的 贡献 度 
< 随机 森林 有 多 标 决 策 树 ,在 决策 树 中 ,每 个 节点 都 
是 全 个 判断 条 件 ,根据 节点 的 条 件 判 断 结果 ,这样 数据 
将 会 被 分 到 两 个 或 多 个 集合 中 。 通 过 不 断 划 分 节 
眠 使 得 一 个 分 支 节点 包含 的 数据 尽 可 能 属于 一 个 类 
里 M 度 越 来 越 高 ) 。 本 文 使 用 信息 增益 或 者 基尼 杂 
质 当 定 义 纯度 。 因 此 , 当 训 练 一 棵 树 时 ,可 以 计算 出 每 
人 信 技 征 对 减少 加 权 杂 质 的 贡献 有 多 大 (每 个 分 支 节点 
auf 。 当 训练 完 所 有 的 决策 树 以 后 ,再 对 若干 棵 决 
策 树 上 杂质 的 减少 进行 平均 ,从 而 获得 最 终 的 贡献 值 。 
python 编程 实现 ,包括 数据 清洗 、 
数据 分 抉 读 取 和 整合 随机 森林 训练 .随机 森林 预测 、 


以 及 贡献 值 和 变化 趋势 可 视 化 。 在 随机 森林 的 训练 过 
程 中 ,使 用 了 python 自 带 的 RandomForestRegressor 接 
口 以 简化 编程 过 程 。 
4.1.1 整体 预测 值 下 用 户 交 互 类 型 对 知识 付费 行为 
预测 的 贡献 度 

首先 ,计算 所 有 用 户 中 用 户 交 互 类 型 对 知识 付费 
行为 预测 的 贡献 度 。 笔 者 训练 一 个 包含 10 000 PRI 
策 树 的 随机 森林 来 评估 17 个 维度 特征 的 重要 性 。 通 
过 观察 每 个 预测 器 的 特征 如 何 影响 模型 性 能 来 直接 度 
量 特征 的 重要 性 ,对 特征 的 重要 性 进行 了 排序 ,并且 用 
横向 条 形 图 进行 可 视 化 ,结果 如 图 2 所 示 : 


a o 


"cg ——— + 
关注 的 用 户 数 B o.07 
关注 的 问题 数 户 Io% 
粉丝 数 Boo 
Xem Doo: 
关注 的 收藏 夹 数 fool 
可 答 数 fool 
被 收藏 数 .00 
emg (0.00 
文章 数 (0.00 
提问 数 (0.00 
被 感激 数 (0.00 
主持 的 直播 数 |0.00 
分 享 数 0.00 
被 收录 的 回答 数 0-00 


2 默认 特征 贡献 度 
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从 图 2 看 出 ,对 于 预测 用 户 是 否 购买 知识 付费 产 
品 ,最 重要 的 3 个 特征 为 关注 的 专栏 数 \ 收 藏 数 .关注 的 
用 户 数 。 基 于 交互 的 对 象 和 信息 传递 方向 ,这 3 个 特征 
都 是 属于 用 户 一 其 他 用 户 交 互 类 型 的 主动 交互 行为 。 
4.1.2 特定 预测 值 下 用 户 交互 类 型 对 知识 付费 行为 
预测 的 贡献 度 

然而 ,以 上 的 贡献 度 计 算 并 没有 体现 特征 如 何 影 
响 特定 预测 值 。 因 此 ,笔者 根据 特定 预测 值 绘制 特 


关注 的 专栏 数 
必 藏 数 
粉丝 数 
关注 的 收藏 夹 数 
关注 的 用 户 数 
关注 的 话题 数 
关注 的 问题 数 
被 收藏 数 

被 感激 数 
赞同 数 

回答 数 
分 享 数 
被 收录 的 回答 数 
提问 数 
文章 数 
主持 的 直播 数 
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-0.20 -0.15 


征 的 贡献 值 。 本 文 计 算 了 特定 用 户 组 (是 否 为 知识 
付费 ) 与 各 个 变量 的 贡献 值 比较 。 图 3 表示 预测 值 
为 1( 付 费用 户 ) 时 各 社交 互动 行为 的 贡献 值 ,图 4 表 
示 预 测 值 为 0( 非 付费 用 户 ) 时 各 社交 互动 行为 的 贡 
献 值 。 

对 于 预测 付费 用 户 ,用 户 关 注 的 专栏 数 .收藏 数 和 
粉丝 数 是 最 重要 的 3 个 特征 , 且 都 是 正 向 的 贡献 。 而 
关注 的 用 户 数 和 被 收藏 的 次 数 产 生 了 负 向 的 贡献 。 
真实 值 ; 1 
预测 信 : 0.68 


特征 贡献 度 


3 预测 付费 用 户 的 特征 重要 性 


真实 信 : 0 
UÈ: 0.21 


D 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
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4 预测 非 付费 用 户 的 特征 重要 性 
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对 于 预测 非 付 费用 户 ,用 户 关注 的 专栏 数 和 收藏 
数 依然 是 最 重要 的 两 个 特征 ,但 是 用 户 关注 的 人 数 成 
为 第 三 重要 的 特征 ,这 和 预测 付费 用 户 的 重要 特征 不 
同 。 此 外 ,最 重要 的 两 个 特征 (关注 的 用 户 数 和 被 收藏 
的 次 数 ) 对 预测 有 负 的 贡献 ,而 关注 的 用 户 数 是 正 向 的 
1 fA o 
4.0 ”用 户 交互 程度 对 知识 付费 行为 预测 的 贡献 度 
以 上 描述 并 没有 对 一 个 特定 的 交互 行为 如 何 影响 
用 户 的 知识 付费 行为 有 一 个 全 面 的 解释 。 因 此 ,笔者 
分 别 绘 制 了 预测 付费 用 户 (关注 的 专栏 数 .收藏 数 . 粉 
丝 数 ) 和 非 付费 用 户 (关注 的 专栏 数 .收藏 数 .关注 的 
用 户 数 ) 最 重要 的 前 3 个 特征 及 其 贡献 值 ,以 探索 社交 
互动 程度 和 知识 付费 行为 的 关系 。 
本 由 于 随机 森林 本 质 上 是 随机 的 ,对 于 给 定 的 关注 
有 数 下 的 贡献 具有 可 变性 。 然 而 ,平滑 的 黑色 趋势 
线 念 显示 出 增长 的 趋势 。 如 图 5 所 示 ,关注 的 专栏 的 
M EORNM 0.4 左右 时 


p | 再 增加 。 


< 二 关注 的 专栏 数 的 贡献 度 
N 
" 
2 
[oa 
Q 0 500 1000 1500 2000 2500 3000 


关注 的 专栏 数 


图 5 关注 的 专栏 数 对 付费 行为 的 贡献 值 


本 文 绘制 了 收藏 数 的 贡献 值 ( 见 图 6) 。 收 藏 数 这 
个 变量 的 贡献 值 具有 非 线 性 \ 非 单调 的 特点 。 低 的 收 
藏 数 具有 负 的 贡献 ,高 的 收藏 数 具 有 正 的 贡献 。 事 实 
上 ,大 部 分 用 户 的 收藏 数量 对 应 一 个 正 的 贡献 值 。 当 
收藏 数 达 到 15 -50 左右 时 ,其 贡献 值 最 大 ,达到 0.28。 

关注 的 用 户 数 这 一 交互 行为 变量 具有 复杂 IEA 
调 的 特点 。 其 贡献 值 在 关注 用 户 数 约 200 左右 时 达到 


收藏 数 的 贡献 度 


收藏 数 


图 6 收藏 数 对 知识 付费 行为 的 贡献 值 
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图 7 关注 的 用 户 数 对 知识 付费 行为 的 贡献 值 


o8 粉丝 数 的 贡献 度 


0 100000 200000 300000 400000 500000 600000 700000 
粉丝 数 


8 粉丝 数 对 知识 付费 行为 的 贡献 值 


5 讨论 


峰值 0. 15 ,此 后 下 降 。 除 此 之 外 ,关注 的 用 户 数 与 目 
标 变量 似乎 具有 普遍 的 负 相 关 关 系 。 

粉丝 数 这 一 交互 特征 对 于 正 向 贡献 和 负 向 贡献 达 
到 了 均值 , 当 粉 丝 数 介 于 1 万 以 内 时 达到 最 大 贡献 , 约 
为 0.28 的 正 向 贡献 和 -0.18 的 负 向 贡献 。 


本 研究 探讨 了 交互 行为 的 类 型 和 程度 对 于 预测 法 
在 知识 付费 用 户 的 贡献 度 大 小 及 变化 趋势 。 

首先 ,对 于 交互 行为 类 型 的 研究 发 现 ,关注 的 专栏 
数 收藏 数 、 关 注 的 用 户 数 和 粉丝 数 这 4 种 行为 的 累计 
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积累 值 是 识别 潜在 知识 付费 用 户 的 最 有 力 的 信号 。 在 
知 乎 社区 中 ,关注 专栏 收藏 .关注 其 他 用 户 这 3 种 行 
为 是 基于 用 户 兴趣 导向 的 主动 行为 类 型 ,用户 会 基于 
自身 的 兴趣 爱好 .自我 提升 ,获取 专业 知识 关注 特定 主 
题 的 专栏 ,收藏 特定 主题 的 帖子 以 及 基于 情感 因素 和 
社交 需求 而 关注 在 特定 领域 内 的 活路 用户 “”。 这 
些 行 为 都 是 基于 用 户 的 个 体 需 求 而 自发 产生 的 行为 ， 
因此 ,这 些 用 户 需求 导向 型 的 交互 行为 都 是 体现 用 户 
个 体 需 求 的 有 力 指 标 ,而 个 体 需 求 是 用 户 为 产品 付费 
的 最 重要 的 驱动 因素 之 一 ”。 已 有 学 者 对 通过 访谈 
获得 的 数据 进行 定性 研究 发 现 个 体 需求 是 知识 付费 行 
为 最 重要 的 特征 ”。 笔 者 从 定量 的 角度 入 手 ,通过 对 
大 数据 的 挖 据 , 采 用 机 器 学 习 算 法 获得 了 和 基于 定性 


开始 的 茶 个 范围 内 ,特征 重要 性 负 向 增加 ,达到 最 大 的 
负 向 贡献 以 后 ,贡献 度 趋 近 于 0。 粉 丝 数 作 为 一 个 用 
户 的 个 人 声誉 ,对 于 用 户 知 识 付费 行为 的 促进 作用 是 
有 限 的 ,并 且 在 一 定 范 围 内 ,粉丝 数 越 多 ,其 为 知识 付 
费 的 可 能 性 就 越 小 。 同 样 ,这 是 由 于 粉丝 数 较 多 的 用 
户 多 为 意见 领袖 ,意见 领袖 的 交互 行为 多 以 知识 贡献 
为 主 。 因 此 ,粉丝 数 的 增加 对 于 用 户 知识 付费 行为 的 
预测 在 一 定 范 围 内 是 负 向 的 促进 作用 。 


6 ”结论 与 展望 


笔者 基于 随机 森林 算法 研究 了 社会 交互 行为 类 型 
以 及 交互 程度 是 潜在 知识 付费 用 户 预测 的 重要 因素 。 
首先 ,就 交互 类 型 而 言 ,预测 付费 用 户 和 非 付 费用 


疗法 研究 相同 的 结论 。 研 究 结果 表明 , 当 用 户 个 体 需 
求 起 大 ,包括 基于 兴趣 的 关注 越 频繁 ,或 者 兴趣 范围 越 
其 可 能 参与 付费 直播 的 可 能 性 就 越 高 。 此 外 , 笔 
亲密 感 的 角度 解释 粉丝 数量 对 于 知识 付费 行为 的 
影 而 。 粉 丝 数量 是 用 户 声誉 的 重要 体现 指标 , 较 高 的 
粉丝 数量 对 于 增强 用 户 的 社区 归属 感 和 亲密 感 有 重要 
作 局 ,而 这 种 亲密 感 会 显著 影响 用 户 的 付费 行为 ,这 与 
这 前 的 研究 是 一 致 的 "" , 即 亲密 度 和 熟悉 度 影响 用 户 
的 贸 续 购买 意 砷 。 此 外 ,先前 的 研究 表明 ,用 户 与 他 人 
的 六 窗 感 和 熟悉 感 越 强 ,这 个 用 户 的 购买 意愿 更 有 可 
能 受到 社区 的 影响 上 。 

>< 其 次 ,笔者 在 研究 社会 交互 程度 对 知识 付费 用 户 
的 址 献 度 方面 有 了 一 些 发 现 。 之 前 的 研究 表明 交互 程 
度 越 深 ,用 户 知识 付费 意愿 越 强 ”。 但 笔者 研究 发 现 
社会 交互 程度 和 知识 付费 行为 并 不 是 单一 的 伴随 增 减 
关系 。 在 一 定 范围 内 交互 程 度 和 特征 重要 性 存在 伴随 
增加 的 关系 ,一 旦 超过 某 个 阔 值 ,这 个 信号 就 保持 平稳 
不 变 甚 至 减弱 。 也 就 是 说 ,只 有 在 一 定 的 阔 值 内 ,用 户 
与 平台 的 交互 程度 越 多 ,对 平台 越 熟练 ,其 为 知识 付费 
的 可 能 性 更 大 。 笔 者 为 这 一 研究 结果 提供 了 可 能 的 解 
释 。 关 注 的 专栏 数 .关注 的 用 户 数 和 收藏 数 这 些 主动 
交互 行为 的 交互 程度 和 特征 重要 性 在 从 0 开始 的 某 个 
区 间 里 有 明显 的 增幅 ,达到 阔 值 后 , 呈 显 著 下 降 趋 势 或 
者 平稳 不 变 。 主 动 交互 行为 的 增加 在 一 定 范围 内 能 够 
显著 提高 用 户 进行 知识 付费 的 可 能 性 ,但 是 对 于 交互 
程度 较 深 的 用 户 ,这 种 提升 作用 非常 弱 ,由 于 交互 程度 
很 深 的 用 户 多 为 意见 领袖 ,而 这 类 用 户主 要 扮演 知识 
分 享 的 角色 ,而 很 少 作为 知识 付费 用 户 从 直播 中 获取 
知识 ,因此 这 部 分 用 户 并 不 是 最 佳 的 商业 变现 的 潜在 
用 户 群 体 。 而 对 于 粉丝 数 这 个 交互 特征 而 言 ,在 从 0 


户 时 ,特征 具有 不 同 的 重要 性 。 在 预测 付费 用 户 时 , 关 
注 的 专栏 数 .收藏 数 、 粉 丝 数 对 于 预测 的 贡献 值 最 大 ， 
而 在 预测 非 付 费用 户 时 ,关注 的 专栏 数 ,收藏 数 和 关注 
的 粉丝 数 的 影响 最 大 。 因 此 ,关注 的 专栏 数 、 收 藏 数 、 
关注 的 用 户 数 和 粉丝 数 这 4 个 交互 特征 对 于 知识 付费 
行为 的 贡献 是 最 大 的 ,由 表 2 可知 ,关注 专栏 .收藏 以 
及 关注 其 他 用 户 这 3 类 行为 都 属于 用 户 一 其 他 用 户 类 
型 。 而 粉丝 数 则 属于 其 他 用 户 一 用 户 类 型 。 这 4 类 行 
为 都 是 用 户 和 其 他 用 户 的 交互 ,因此 研究 表明 用 户 跟 
其 他 用 户 之 间 的 交互 行为 对 于 预测 的 贡献 度 远 大 于 用 
户 和 平台 的 交互 。 此 外 ,在 这 4 类 行为 中 ,只 有 一 类 行 
为 属于 来 自 其 他 用 户 的 交互 ,也 就 是 说 ,用 户 的 主动 行 
为 相 比 于 用 户 的 被 动 行 为 ,其 对 于 潜在 知识 付费 用 户 
的 预测 贡献 度 更 大 。 而 在 所 有 的 交互 行为 中 ,个 体 需 
求 驱动 的 交互 行为 对 于 付费 用 户 的 识别 发 挥 着 最 重要 
的 作用 。 该 研究 提供 了 一 些 新 的 理论 见解 。 首 先 ,从 
定量 分 析 角 度 证 实 了 前 人 通过 定性 分 析 方 法 的 研究 结 
ie , 即 个 体 需求 ,包括 兴趣 爱好 自我 提升 情感 需求 和 
社交 需求 是 用 户 购买 知识 付费 产品 最 重要 的 驱动 因 
素 。 其 次 ,根据 交互 行为 的 定义 细 化 了 交互 的 对 象 和 
交互 路 径 , 对 于 社交 网 站 上 用 户 交 互 行为 的 研究 提供 
了 新 的 研究 视角 。 

同时 ,该 结果 为 在 线 知识 平台 识别 潜在 的 知识 付 
费用 户 提 供 了 有 效 的 实践 意义 ,结果 发 现在 知 乎 社区 
中 ,专栏 收藏 和 关注 的 用 户 的 行为 应 该 被 作为 主要 的 
预测 指标 ,这 些 主动 交互 行为 作为 最 重要 的 识别 特征 ， 
可 有 效 减少 平台 进行 特征 筛选 的 时 间 。 此 外 ,利用 随 
机 森林 算法 ,对 不 同 交 互 特征 类 型 的 重要 性 进行 了 定 
量 分 析 , 这 种 方法 在 海量 用 户 数据 集中 的 适应 性 得 到 
了 有 效 验 证 。 
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此 外 ,就 交互 程度 而 言 ,笔者 发 现 ,交互 程度 和 交 
互 行为 的 关系 并 不 总 是 呈现 简单 的 单调 增 减 的 关系 。 
交互 程度 在 一 定 范围 内 的 增加 对 于 付费 行为 的 影响 有 
显著 提升 ,不 同类 型 的 交互 行为 具有 不 同 的 阔 值 ,而 超 
过 某 个 特定 范围 时 ,这 种 影响 趋 于 平缓 甚至 有 下 降 的 
趋势 。 研 究 结果 表 明 , 交 互 程度 越 深 的 用 户 并 不 总 是 
潜在 的 知识 付费 用 户 。 该 研究 结果 从 理论 层面 为 一 些 
研究 结论 提供 了 一 些 必要 的 限制 条 件 。 之 前 的 研究 认 
为 交互 程度 越 深 ,其 越 有 可 能 为 知识 付费 。 但 是 这 在 
知 乎 社区 并 不 是 普遍 存在 的 现象 。 交 互 程度 在 一 定 范 
围 内 的 增加 是 有 效 的 ,但 是 超过 一 定 范围 ,这 种 交互 程 
度 的 增加 对 于 识别 潜在 的 知识 付费 用 户 的 重要 性 趋 于 
平稳 甚至 显著 下 降 。 从 实践 层面 考虑 ,对 于 平台 而 言 ， 
蜂 测 用 户 的 累计 交互 程度 是 一 种 有 效 的 识别 潜在 知识 
付费 用 户 的 途径 。 根 据 研究 结果 , 当 某 个 交互 特征 的 
程 族 处 于 特定 区 间 时 ,其 为 知识 付费 的 可 能 性 是 最 大 
的 ,对 交互 程度 的 监测 有 助 于 平台 进行 定向 的 直播 付 
HEP BERE. 

与 现 有 相关 研究 相 比 , 本 研究 的 创新 点 主要 体现 
TEDNI M : DEERE ,从 用 户 交 互 行为 的 视角 识别 
潜在 的 知识 付费 用 户 , 并 且 阐 述 了 利用 用 户 在 线 交互 


Ww | 


行为 识别 潜在 知识 付费 用 户 的 理论 依据 。 包 使 用 了 大 


| 


没 窒 统 计 意 义 的 行为 字段 ,其 他 字段 全 部 保留 ,使 得 研 
究 结果 更 加 完善 。@ 使 用 了 科学 的 研究 方法 ,运用 随 
机 森林 算法 对 大 量 级 的 数据 进行 特征 的 重要 性 计算 。 


此 外 ,利用 python 框架 进行 了 有 效 的 可 视 化 表达 ,以 提 

高 文章 的 可 读 性 。 
当然 ,本 文 也 有 一 定局 限 性 。 笔 者 仅 从 一 个 在 线 

社区 人手 ,人 研究 的 特征 变量 不 具有 广泛 的 适应 性 ,未 来 

的 研究 方向 应 通过 探索 具有 不 同文 化 背景 .不同 运营 

模式 ”| 的 在 线 知 识 社区 以 获得 具有 可 比较 的 行为 特 

征 变 量 的 重要 性 。 在 此 基础 上 ,所 在 行业 的 特征 也 应 

该 被 考虑 。 
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Deng Shengli Jiang Yuting 
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Abstract: | Purpose/ significance | In order to enrich the theoretical study between social interaction behavior 


inaXiv 


.&rd knowledge payment behavior, identify potential paying customers effectively so as to improve the marketability of 
bine knowledge community, this paper studies the contribution degree of different types and degrees of interactive 
behaviors to the prediction of knowledge paying users and their changing trends on the basis of summarizing the pre- 
decessors' research conclusion. | Method/ process | Based on the social interaction behavior data of 4 million users 
crawled from the Zhihu community (www. zhihu. com) , this paper classified the social interaction behavior of users 
in the community according to the different interaction subjects and interaction directions, and then used random for- 
est algorithm studied the contribution of different types and degrees of interaction behavior to the prediction of knowl- 
edge paying users. | Result/conclusion | The results show that the impact of the interaction between users and other 
users is greater than that of the interaction between users and the platform. In particular, the impact of active interac- 
tions sent to other users is greater than the impact of passive interactions from other users. In addition, within a cer- 
tain threshold, the greater the degree of social interaction, the greater its contribution to the prediction of knowledge 
payment behavior. Different interaction types have different thresholds, but beyond this threshold, the relationship is 
no longer a simple monotonic increase and may tend to be flat or even significantly lower. 
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